Kho dữ liệu là gì? Các công bố khoa học về Kho dữ liệu
Khổ dữ liệu (tiếng Anh: data size) là kích thước của dữ liệu được sử dụng hoặc lưu trữ trong một hệ thống máy tính. Nó thường được đo bằng đơn vị như byte, kilo...
Khổ dữ liệu (tiếng Anh: data size) là kích thước của dữ liệu được sử dụng hoặc lưu trữ trong một hệ thống máy tính. Nó thường được đo bằng đơn vị như byte, kilobyte (KB), megabyte (MB), gigabyte (GB), terabyte (TB) hoặc petabyte (PB). Khổ dữ liệu cũng có thể bao gồm các yếu tố khác như số lượng bản ghi, số lượng trường trong một bản ghi, độ phân giải ảnh, thời gian tín hiệu âm thanh, hoặc bất kỳ yếu tố nào khác có thể tác động đến kích thước và khả năng xử lý của dữ liệu.
Khổ dữ liệu thường đề cập đến kích thước lượng dữ liệu mà hệ thống máy tính cần xử lý hoặc lưu trữ. Đơn vị đo thường được sử dụng bao gồm:
- Byte: Đơn vị nhỏ nhất để đo kích thước dữ liệu. Mỗi byte tương đương với 8 bit.
- Kilobyte (KB): Tương đương với 1024 byte.
- Megabyte (MB): Tương đương với 1024 KB hoặc 1048576 byte.
- Gigabyte (GB): Tương đương với 1024 MB hoặc 1073741824 byte.
- Terabyte (TB): Tương đương với 1024 GB hoặc 1099511627776 byte.
- Petabyte (PB): Tương đương với 1024 TB hoặc 1125899906842624 byte.
Khổ dữ liệu có thể áp dụng cho nhiều loại dữ liệu khác nhau, bao gồm văn bản, hình ảnh, âm thanh, video, cơ sở dữ liệu, tệp tin, bộ nhớ máy tính, và nhiều yếu tố khác.
Khổ dữ liệu quan trọng trong việc xác định dung lượng lưu trữ cần thiết và phân bổ tài nguyên xử lý. Nó ảnh hưởng đến hiệu suất của hệ thống máy tính, tốc độ truyền tải dữ liệu, thời gian tác vụ, và quy mô lưu trữ.
Cụ thể hơn, khổ dữ liệu thể hiện sự lượng hóa của thông tin có thể được lưu trữ hoặc xử lý trong một hệ thống máy tính. Một số ví dụ để minh họa khái niệm khổ dữ liệu:
1. Dữ liệu văn bản: Khổ dữ liệu của văn bản đặc biệt phụ thuộc vào số lượng từ, ký tự và dấu câu có trong văn bản. Mỗi ký tự thông thường được biểu diễn bằng một byte. Tuy nhiên, lưu ý rằng các ký tự Unicode hoặc các ký tự đặc biệt có thể cần nhiều hơn một byte để biểu diễn.
2. Dữ liệu hình ảnh: Khổ dữ liệu của một hình ảnh được xác định bởi kích thước hình ảnh và độ phân giải. Với hình ảnh kỹ thuật số, thông thường được biểu diễn dưới dạng các pixel, mỗi pixel có thể được biểu diễn bằng một byte hoặc nhiều hơn tùy thuộc vào độ phân giải màu sắc.
3. Dữ liệu âm thanh: Khổ dữ liệu của âm thanh phụ thuộc vào định dạng file và thuộc tính của tín hiệu âm thanh. Với âm thanh số, khổ dữ liệu thường được tính theo tỷ lệ mã hóa Bitrate hoặc Sample rate.
4. Dữ liệu video: Đối với dữ liệu video, khổ dữ liệu phụ thuộc vào nhiều yếu tố như kích thước khung hình, tốc độ khung hình, độ phân giải, bitrate, hay định dạng video.
5. Dữ liệu cơ sở dữ liệu (Database): Khổ dữ liệu trong cơ sở dữ liệu được xác định bởi số lượng bản ghi, số lượng trường và hình thức lưu trữ (ví dụ: các dữ liệu kiểu văn bản, số nguyên, số thực,...). Nó có thể được đo bằng đơn vị byte hoặc bằng số lượng bản ghi và trường dữ liệu.
Khổ dữ liệu quan trọng để có thể dự đoán và quản lý các yêu cầu về lưu trữ, truyền tải và xử lý dữ liệu trong các hệ thống máy tính.
Danh sách công bố khoa học về chủ đề "kho dữ liệu":
Chúng tôi giới thiệu phiên bản mới nhất của phần mềm Phân Tích Di Truyền Phân Tử (MEGA), bao gồm nhiều phương pháp và công cụ tinh vi cho phân loại gen và y học phân loại. Trong lần nâng cấp lớn này, MEGA đã được tối ưu hóa để sử dụng trên các hệ thống máy tính 64-bit nhằm phân tích các tập dữ liệu lớn hơn. Các nhà nghiên cứu giờ đây có thể khám phá và phân tích hàng chục nghìn chuỗi trong MEGA. Phiên bản mới cũng cung cấp một trình hướng dẫn nâng cao để xây dựng cây thời gian và bao gồm chức năng mới để tự động dự đoán các sự kiện sao chép gen trong các cây họ gen. MEGA 64-bit được cung cấp qua hai giao diện: đồ họa và dòng lệnh. Giao diện người dùng đồ họa (GUI) là một ứng dụng dành cho Microsoft Windows có thể sử dụng cả trên Mac OS X. Dòng lệnh MEGA có sẵn dưới dạng ứng dụng gốc cho Windows, Linux và Mac OS X. Chúng được thiết kế để sử dụng trong phân tích quy mô lớn và phân tích kịch bản. Cả hai phiên bản đều được cung cấp miễn phí từ www.megasoftware.net.
Một phương trình mới và tương đối đơn giản cho đường cong áp suất chứa nước trong đất, θ(
Các dự án giải trình tự DNA thế hệ tiếp theo (NGS), chẳng hạn như Dự án Bộ Gen 1000, đã và đang cách mạng hóa sự hiểu biết của chúng ta về sự biến dị di truyền giữa các cá nhân. Tuy nhiên, các tập dữ liệu khổng lồ được tạo ra bởi NGS—chỉ riêng dự án thí điểm Bộ Gen 1000 đã bao gồm gần năm terabase—làm cho việc viết các công cụ phân tích giàu tính năng, hiệu quả và đáng tin cậy trở nên khó khăn ngay cả đối với những cá nhân có kiến thức tính toán phức tạp. Thực tế, nhiều chuyên gia gặp phải giới hạn về quy mô và sự dễ dàng trong việc trả lời các câu hỏi khoa học bởi sự phức tạp trong việc truy cập và xử lý dữ liệu do những máy này tạo ra. Trong bài báo này, chúng tôi thảo luận về Bộ công cụ Phân tích Bộ Gen (GATK) của chúng tôi, một khung lập trình có cấu trúc được thiết kế để tạo điều kiện thuận lợi cho sự phát triển của các công cụ phân tích hiệu quả và đáng tin cậy dành cho các máy giải trình tự DNA thế hệ tiếp theo sử dụng triết lý lập trình hàm MapReduce. GATK cung cấp một bộ mẫu truy cập dữ liệu nhỏ nhưng phong phú, bao trùm hầu hết các nhu cầu của công cụ phân tích. Việc tách biệt các tính toán phân tích cụ thể khỏi hạ tầng quản lý dữ liệu chung cho phép chúng tôi tối ưu hóa khung GATK về độ chính xác, độ ổn định, và hiệu quả CPU và bộ nhớ, cũng như cho phép phân giải song song bộ nhớ chia sẻ và phân tán. Chúng tôi nhấn mạnh các khả năng của GATK bằng cách mô tả việc triển khai và ứng dụng các công cụ đáng tin cậy và dung nạp quy mô như máy tính phủ và gọi đa hình đơn nucleotide (SNP). Chúng tôi kết luận rằng khung lập trình GATK cho phép các nhà phát triển và nhà phân tích nhanh chóng và dễ dàng viết các công cụ NGS hiệu quả và đáng tin cậy, nhiều công cụ trong số đó đã được tích hợp vào các dự án giải trình tự quy mô lớn như Dự án Bộ Gen 1000 và Atlas Bộ Gen Ung thư.
Trong bối cảnh quản lý, lập trình toán học thường được sử dụng để đánh giá một tập hợp các phương án hành động thay thế có thể, nhằm lựa chọn một phương án tốt nhất. Trong khả năng này, lập trình toán học phục vụ như một công cụ hỗ trợ lập kế hoạch quản lý. Phân tích Bao hàm Dữ liệu (DEA) đảo ngược vai trò này và sử dụng lập trình toán học để đánh giá ex post facto hiệu quả tương đối của các thành tựu quản lý, dù chúng được lập kế hoạch hoặc thực hiện như thế nào. Lập trình toán học do đó được mở rộng để sử dụng như một công cụ kiểm soát và đánh giá các thành tựu quá khứ cũng như công cụ hỗ trợ lập kế hoạch cho hoạt động tương lai. Hình thức tỷ lệ CCR được giới thiệu bởi Charnes, Cooper và Rhodes, như một phần của cách tiếp cận Phân tích Bao hàm Dữ liệu, bao hàm cả sự không hiệu quả về kỹ thuật và quy mô thông qua giá trị tối ưu của hình thức tỷ lệ, được thu được trực tiếp từ dữ liệu mà không cần yêu cầu định trước các trọng số và/hoặc phân định rõ ràng các dạng chức năng giả định của mối quan hệ giữa đầu vào và đầu ra. Một sự tách biệt giữa hiệu quả kỹ thuật và hiệu quả quy mô được thực hiện bởi các phương pháp phát triển trong bài báo này mà không làm thay đổi các điều kiện sử dụng DEA trực tiếp trên dữ liệu quan sát. Sự không hiệu quả về kỹ thuật được xác định bởi sự thất bại trong việc đạt được các mức đầu ra tốt nhất có thể và/hoặc việc sử dụng quá nhiều lượng đầu vào. Các phương pháp để xác định và điều chỉnh phạm vi của những sự không hiệu quả này, được cung cấp trong các công trình trước, được minh họa. Trong bài báo hiện tại, một biến mới được giới thiệu, cho phép xác định liệu các hoạt động được thực hiện trong các vùng có lợi suất tăng, không đổi hay giảm (trong các tình huống đa đầu vào và đa đầu ra). Các kết quả được thảo luận và liên hệ không chỉ với kinh tế học cổ điển (đầu ra đơn) mà còn với các phiên bản kinh tế học hiện đại hơn được xác định với “lý thuyết thị trường có thể tranh đấu.”
Chúng tôi trình bày một khung nghiên cứu về sự biến đổi phân tử trong một loài. Dữ liệu về sự khác biệt giữa các haplotype DNA đã được tích hợp vào một định dạng phân tích phương sai, xuất phát từ ma trận khoảng cách bình phương giữa tất cả các cặp haplotype. Phân tích phương sai phân tử (AMOVA) này cung cấp các ước tính về thành phần phương sai và các đồng vị thống kê F, được gọi là phi-statistics, phản ánh sự tương quan của độ đa dạng haplotype ở các cấp độ phân chia thứ bậc khác nhau. Phương pháp này khá linh hoạt để thích ứng với các ma trận đầu vào thay thế, tương ứng với các loại dữ liệu phân tử khác nhau, cũng như các giả định tiến hóa khác nhau, mà không làm thay đổi cấu trúc cơ bản của phân tích. Ý nghĩa của các thành phần phương sai và phi-statistics được kiểm định bằng cách tiếp cận hoán vị, loại bỏ giả định về chuẩn tính thông thường trong phân tích phương sai nhưng không phù hợp cho dữ liệu phân tử. Áp dụng AMOVA cho dữ liệu haplotype DNA ty thể của con người cho thấy, sự phân chia dân số được giải quyết tốt hơn khi một số biện pháp khác biệt phân tử giữa các haplotype được đưa vào phân tích. Tuy nhiên, ở cấp độ nội bộ loài, thông tin bổ sung từ việc biết quan hệ phân loại chính xác giữa các haplotype hoặc thông qua việc dịch phi tuyến thay đổi vị trí hạn chế thành độ đa dạng nucleotide không làm thay đổi đáng kể cấu trúc di truyền dân số suy luận. Các nghiên cứu Monte Carlo cho thấy việc lấy mẫu vị trí không ảnh hưởng căn bản tới ý nghĩa của các thành phần phương sai phân tử. Việc xử lý AMOVA dễ dàng mở rộng theo nhiều hướng khác nhau và cấu thành một khung hợp lý và linh hoạt cho việc phân tích thống kê dữ liệu phân tử.
Nhiều lần ước lượng dữ liệu khuyết bằng phương trình xích là một cách tiếp cận linh hoạt và thiết thực để xử lý dữ liệu bị mất. Chúng tôi mô tả các nguyên tắc của phương pháp này và trình bày cách ước lượng dữ liệu cho các biến số phân loại và định lượng, bao gồm cả các biến số phân phối lệch. Chúng tôi đưa ra hướng dẫn về cách chỉ định mô hình ước lượng và số lần ước lượng cần thiết. Chúng tôi mô tả việc phân tích thực tế các dữ liệu đã được ước lượng nhiều lần, bao gồm cả quá trình xây dựng mô hình và kiểm tra mô hình. Chúng tôi nhấn mạnh những hạn chế của phương pháp và thảo luận các khả năng gặp phải sai lầm. Chúng tôi minh họa các ý tưởng bằng một bộ dữ liệu trong lĩnh vực sức khỏe tâm thần, kèm theo các đoạn mã Stata. Bản quyền © 2010 John Wiley & Sons, Ltd.
Học máy (Machine learning) nghiên cứu vấn đề làm thế nào để xây dựng các hệ thống máy tính tự động cải thiện qua kinh nghiệm. Đây là một trong những lĩnh vực kỹ thuật phát triển nhanh chóng hiện nay, nằm tại giao điểm của khoa học máy tính và thống kê, và là cốt lõi của trí tuệ nhân tạo và khoa học dữ liệu. Tiến bộ gần đây trong học máy được thúc đẩy bởi sự phát triển của các thuật toán và lý thuyết học mới cùng với sự bùng nổ liên tục trong việc sẵn có dữ liệu trực tuyến và khả năng tính toán chi phí thấp. Việc áp dụng các phương pháp học máy dựa trên dữ liệu đã xuất hiện trong khoa học, công nghệ và thương mại, dẫn đến việc ra quyết định dựa trên bằng chứng trong nhiều lĩnh vực cuộc sống, bao gồm chăm sóc sức khỏe, sản xuất, giáo dục, mô hình tài chính, cảnh sát và tiếp thị.
Chúng tôi xem xét một số vấn đề trong việc ước lượng các mô hình cắt ngang theo thời gian, đồng thời đặt dấu hỏi về những kết luận của nhiều nghiên cứu đã công bố, đặc biệt trong lĩnh vực kinh tế chính trị so sánh. Chúng tôi chỉ ra rằng phương pháp bình phương tối thiểu tổng quát của Parks tạo ra sai số chuẩn gây ra sự tự tin thái quá, thường đánh giá thấp độ biến thiên đến 50% hoặc hơn. Chúng tôi cũng cung cấp một phương pháp ước lượng thay thế cho sai số chuẩn, phương pháp này là chính xác khi cấu trúc sai số cho thấy những phức tạp được tìm thấy trong loại mô hình này. Phân tích Monte Carlo cho thấy rằng những "sai số chuẩn được sửa đổi theo bảng" này hoạt động tốt. Tính hữu ích của phương pháp của chúng tôi được chứng minh qua việc phân tích lại một mô hình "công nghiệp dân chủ xã hội".
Một khảo sát dữ liệu trước/sau bài kiểm tra sử dụng bài kiểm tra Chẩn đoán Cơ học Halloun–Hestenes hoặc Đánh giá Khái niệm Lực gần đây hơn được báo cáo cho 62 khóa học vật lý cơ bản với tổng số sinh viên đăng ký N=6542. Một phân tích nhất quán trên các nhóm sinh viên đa dạng tại các trường trung học, cao đẳng và đại học đạt được nếu một đo lường thô về hiệu quả trung bình của một khóa học trong việc thúc đẩy hiểu biết khái niệm được coi là lợi ích chuẩn hóa trung bình 〈g〉. Lợi ích nay được xác định là tỷ lệ giữa lợi ích trung bình thực tế (%〈post〉−%〈pre〉) với lợi ích trung bình tối đa có thể (100−%〈pre〉). Mười bốn khóa học “truyền thống” (T) (N=2084) mà ít hoặc không sử dụng các phương pháp tương tác-engagement (IE) đạt được lợi ích trung bình 〈g〉T-ave=0.23±0.04 (độ lệch chuẩn). Ngược lại, 48 khóa học (N=4458) mà sử dụng đáng kể các phương pháp IE đạt được lợi ích trung bình 〈g〉IE-ave=0.48±0.14 (độ lệch chuẩn), gần hai độ lệch chuẩn của 〈g〉IE-ave vượt trên lợi ích của các khóa học truyền thống. Kết quả cho 30 (N=3259) trong số 62 khóa học trên về bài kiểm tra Cơ học Cơ sở vấn đề của Hestenes–Wells ngụ ý rằng các chiến lược IE nâng cao khả năng giải quyết vấn đề. Kết quả từ các bài kiểm tra khái niệm và giải quyết vấn đề mạnh mẽ gợi ý rằng việc sử dụng phương pháp IE trong lớp học có thể tăng cường hiệu quả của các khóa học cơ học vượt xa so với những gì có được trong thực hành truyền thống.
Một biến thể mới tên là ‘PMF’ trong phân tích yếu tố được mô tả. Giả định rằng
- 1
- 2
- 3
- 4
- 5
- 6
- 10